深层生成模型的最新进展为音乐制作提供了新的机会,但也带来了挑战,例如高计算需求和有限的音频质量。此外,当前系统通常仅依赖文本输入,通常专注于制作完整的音乐作品,这与音乐制作中现有的工作流程不相容。为了解决这些问题,我们介绍了Diff-A-Riff,这是一种潜在的扩散模型,该模型旨在生成适合任何音乐背景的高质量乐器伴奏。这种模型通过音频参考,文本提示或两者兼而有之,并产生48kHz伪stereo音频,同时大大减少了推理时间和内存使用情况。我们通过客观指标和主观听力测试来展示该模型的功能,并在随附的网站上提供了广泛的检查。1
主要关键词
![arxiv:2406.08384v2 [cs.sd] 2024年10月30日PDF文件第1页](/bimg/0/088297d4f258420650481ba48ceb509b28e5274d.webp)
![arxiv:2406.08384v2 [cs.sd] 2024年10月30日PDF文件第2页](/bimg/f/f3fc0eecd044eb4982417dd5c2703b369fb8b8b2.webp)
![arxiv:2406.08384v2 [cs.sd] 2024年10月30日PDF文件第3页](/bimg/1/1ce2e7f564b7263aba7ea60da9b8c1be125804d3.webp)
![arxiv:2406.08384v2 [cs.sd] 2024年10月30日PDF文件第4页](/bimg/4/496d4d2d8e02fd240ac9f3d64f5ea2a7610d974f.webp)
![arxiv:2406.08384v2 [cs.sd] 2024年10月30日PDF文件第5页](/bimg/c/cbefb0ab404833c0002ad42bf8c79c2c8d9e066d.webp)
